草图是一种从个人的创造性角度传达视觉场景的媒介。添加颜色基本上增强了草图的总体表征。本文提出了通过利用轮廓绘制数据集来模仿人绘制着色草图的两种方法。我们的第一个方法通过应用k-means颜色聚类辅助的图像处理技术来呈现彩色的轮廓草图。第二种方法使用生成的对抗性网络来开发一个可以从先前未观察到的图像生成彩色草图的模型。我们评估通过定量和定性评估获得的结果。
translated by 谷歌翻译
Real-world applications often require learning continuously from a stream of data under ever-changing conditions. When trying to learn from such non-stationary data, deep neural networks (DNNs) undergo catastrophic forgetting of previously learned information. Among the common approaches to avoid catastrophic forgetting, rehearsal-based methods have proven effective. However, they are still prone to forgetting due to task-interference as all parameters respond to all tasks. To counter this, we take inspiration from sparse coding in the brain and introduce dynamic modularity and sparsity (Dynamos) for rehearsal-based general continual learning. In this setup, the DNN learns to respond to stimuli by activating relevant subsets of neurons. We demonstrate the effectiveness of Dynamos on multiple datasets under challenging continual learning evaluation protocols. Finally, we show that our method learns representations that are modular and specialized, while maintaining reusability by activating subsets of neurons with overlaps corresponding to the similarity of stimuli.
translated by 谷歌翻译
Multiple studies have focused on predicting the prospective popularity of an online document as a whole, without paying attention to the contributions of its individual parts. We introduce the task of proactively forecasting popularities of sentences within online news documents solely utilizing their natural language content. We model sentence-specific popularity forecasting as a sequence regression task. For training our models, we curate InfoPop, the first dataset containing popularity labels for over 1.7 million sentences from over 50,000 online news documents. To the best of our knowledge, this is the first dataset automatically created using streams of incoming search engine queries to generate sentence-level popularity annotations. We propose a novel transfer learning approach involving sentence salience prediction as an auxiliary task. Our proposed technique coupled with a BERT-based neural model exceeds nDCG values of 0.8 for proactive sentence-specific popularity forecasting. Notably, our study presents a non-trivial takeaway: though popularity and salience are different concepts, transfer learning from salience prediction enhances popularity forecasting. We release InfoPop and make our code publicly available: https://github.com/sayarghoshroy/InfoPopularity
translated by 谷歌翻译
It is essential to classify brain tumors from magnetic resonance imaging (MRI) accurately for better and timely treatment of the patients. In this paper, we propose a hybrid model, using VGG along with Nonlinear-SVM (Soft and Hard) to classify the brain tumors: glioma and pituitary and tumorous and non-tumorous. The VGG-SVM model is trained for two different datasets of two classes; thus, we perform binary classification. The VGG models are trained via the PyTorch python library to obtain the highest testing accuracy of tumor classification. The method is threefold, in the first step, we normalize and resize the images, and the second step consists of feature extraction through variants of the VGG model. The third step classified brain tumors using non-linear SVM (soft and hard). We have obtained 98.18% accuracy for the first dataset and 99.78% for the second dataset using VGG19. The classification accuracies for non-linear SVM are 95.50% and 97.98% with linear and rbf kernel and 97.95% for soft SVM with RBF kernel with D1, and 96.75% and 98.60% with linear and RBF kernel and 98.38% for soft SVM with RBF kernel with D2. Results indicate that the hybrid VGG-SVM model, especially VGG 19 with SVM, is able to outperform existing techniques and achieve high accuracy.
translated by 谷歌翻译
多种业务场景需要从结构化输入数据中自动生成描述性的人类可读文本。因此,已经开发了针对各种下游任务的事实到文本的系统主要是由于相关数据集的高可用性。直到最近,提出了跨语言事实与文本(XF2T)的问题,该问题是针对多种语言的生成,以及一个数据集,Xalign的八种语言。但是,实际上XF2T生成问题没有严格的工作。我们使用另外四种语言的注释数据扩展了Xalign数据集:旁遮普语,马拉雅拉姆语,阿萨姆语和Oriya。我们在扩展的多语言数据集上使用基于变压器的流行文本生成模型进行了广泛的研究,我们称之为Xalignv2。此外,我们研究了不同文本生成策略的性能:预处理,事实感知的嵌入和结构意识的输入编码的多种变化。我们的广泛实验表明,使用具有结构意识的输入编码的事实感知的嵌入式的多语言MT5模型可以平均在十二种语言中获得最佳结果。我们将代码,数据集和模型公开可用,并希望这将有助于进一步在此关键领域进行进一步的研究。
translated by 谷歌翻译
随着电子商务领域的巨大增长,产品建议已成为电子商务公司越来越多的兴趣领域。产品建议中最困难的任务之一是尺寸和合适的预测。电子时尚域中有很多相关的回报和退款,这给客户带来了不便,并给公司带来了损失。因此,拥有良好的尺寸和合适的推荐系统,可以预测客户的正确尺寸,不仅可以减少相关的回报和退款,还可以改善客户体验。该领域的早期作品使用传统的机器学习方法来估计购买历史记录的客户和产品尺寸。由于客户产品数据中的巨大稀疏,这些方法遭受了冷启动问题。最近,人们使用深度学习来通过嵌入客户和产品功能来解决此问题。但是,它们都没有包含在产品页面上存在的有价值的客户反馈以及客户和产品功能。我们提出了一种新颖的方法,该方法可以使用客户评论中的信息以及客户和产品功能来实现尺寸和合适的预测。与在4个数据集上使用产品和客户功能相比,我们证明了方法的有效性。我们的方法显示,在4个不同数据集的基线上,F1(宏)得分的提高了1.37%-4.31%。
translated by 谷歌翻译
我们提出了可推广的NERF变压器(GNT),这是一种纯粹的,统一的基于变压器的体系结构,可以从源视图中有效地重建神经辐射场(NERF)。与NERF上的先前作品不同,通过颠倒手工渲染方程来优化人均隐式表示,GNT通过封装两个基于变压器的阶段来实现可概括的神经场景表示和渲染。 GNT的第一阶段,称为View Transformer,利用多视图几何形状作为基于注意力的场景表示的电感偏差,并通过在相邻视图上从异性线中汇总信息来预测与坐标对齐的特征。 GNT的第二阶段,名为Ray Transformer,通过Ray Marching呈现新视图,并使用注意机制直接解码采样点特征的序列。我们的实验表明,当在单个场景上进行优化时,GNT可以在不明确渲染公式的情况下成功重建NERF,甚至由于可学习的射线渲染器,在复杂的场景上甚至将PSNR提高了〜1.3db。当在各种场景中接受培训时,GNT转移到前面的LLFF数据集(LPIPS〜20%,SSIM〜25%$)和合成搅拌器数据集(LPIPS〜20%,SSIM 〜25%$)时,GNN会始终达到最先进的性能4%)。此外,我们表明可以从学习的注意图中推断出深度和遮挡,这意味着纯粹的注意机制能够学习一个物理地面渲染过程。所有这些结果使我们更接近将变形金刚作为“通用建模工具”甚至用于图形的诱人希望。请参阅我们的项目页面以获取视频结果:https://vita-group.github.io/gnt/。
translated by 谷歌翻译
深层伪造的面部伪造引起了严重的社会问题。愿景社区已经提出了几种解决方案,以通过自动化的深层检测系统有效地对待互联网上的错误信息。最近的研究表明,基于面部分析的深度学习模型可以根据受保护的属性区分。对于对DeepFake检测技术的商业采用和大规模推出,对跨性别和种族等人口变化的深层探测器的评估和了解(不存在任何偏见或偏爱)至关重要。由于人口亚组之间的深泡探测器的性能差异会影响贫困子组的数百万人。本文旨在评估跨男性和女性的深泡探测器的公平性。但是,现有的DeepFake数据集未用人口标签注释以促进公平分析。为此,我们用性别标签手动注释了现有的流行DeepFake数据集,并评估了整个性别的当前DeepFake探测器的性能差异。我们对数据集的性别标记版本的分析表明,(a)当前的DeepFake数据集在性别上偏斜了分布,并且(b)通常采用的深层捕获探测器在性别中获得不平等的表现,而男性大多数均优于女性。最后,我们贡献了一个性别平衡和注释的DeepFake数据集GBDF,以减轻性能差异,并促进研究和发展,以朝着公平意识到的深层假探测器。 GBDF数据集可公开可用:https://github.com/aakash4305/gbdf
translated by 谷歌翻译
深度学习的进步已导致计算机视觉的稳定进步,并提高了对象检测和语义细分等任务的准确性。然而,深度神经网络容易受到对抗攻击的影响,因此在可靠的部署中提出了挑战。 3D场景对机器人技术和高级驱动辅助系统的理解中的两个突出任务是单眼的深度和姿势估计,通常以无监督的方式一起学习。尽管存在评估对抗性攻击对单眼深度估计的影响的研究,但缺乏对对抗性扰动对姿势估计的系统性证明和分析。我们展示了加性不可感知的扰动不仅可以改变预测以增加轨迹漂移,还可以改变其几何形状。我们还研究了针对单眼深度和姿势估计网络的对抗性扰动之间的关系,以及将扰动转移到具有不同架构和损失的其他网络之间的关系。我们的实验表明,生成的扰动如何导致相对旋转和翻译预测的显着错误以及阐明网络的漏洞。
translated by 谷歌翻译
极端分类(XC)试图用最大的标签集中标记标签的子集标记数据点。通过使用稀疏,手工制作的功能的XC方法优越,用密集,学习的数据来进行深度XC,以数据点和标签的形式吸引了很多关注。负挖掘技术已成为所有深XC方法的关键组成部分,使它们可以扩展到数百万个标签。然而,尽管最近进步,但培训具有大型编码器体系结构(例如变形金刚)的深入XC模型仍然具有挑战性。本文确定,流行负面挖掘技术的内存通常迫使小型批量尺寸保持小且缓慢的训练。作为回应,本文介绍了Ngame,这是一种轻巧的迷你批次创建技术,可证明可证明准确的内部负面样品。这使得与现有负面采样技术相比,具有更大的迷你批次培训,提供更快的收敛性和更高的精度。发现Ngame的准确性比各种基准数据集的最先进方法要高16%,以进行极端分类,并且在回答搜索引擎查询以响应用户网页时检索搜索引擎查询更准确3%显示个性化广告。在流行搜索引擎的实时A/B测试中,Ngame在点击率率中的收益最高可达23%。
translated by 谷歌翻译